Flamingo: a Visual Language Model for Few-Shot Learning - nikkie-memos

Flamingo: a Visual Language Model for Few-Shot Learning

https://arxiv.org/abs/2204.14198

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf

Figure 1

画像とテキストを言語モデルに入れる（マルチモーダル）